از آنجاییکه رفتار افراد در ویدئوها بصورت سیگنالهای سه بعدی است و جستجوی یک عمل خاص بسیار دشوار میباشد، لذا نیاز به یک تکنیک مناسب جهت تشخیص خودکار دزدان مسلح در ویدئوهای امنیتی در حال ضبط میباشد. در این مقاله روشی سریع و کارا جهت شناسایی موقعیت افراد و سپس تشخیص اسلحه در دست آنها، با استخراج فریم های تصاویر برگرفته از ویدئوها و بدون حذف نقاط اصلی، ارائه شده است. در مرحله نخست و بمنظور استخراج فریم های تصاویر برگرفته از ویدئوها، الگوریتم جداسازی با نرخ فریم مشخص اعمال خواهد شد و تمامی تصاویر در یک پوشه قرار میگیرند. سپس روی تمامی تصاویر بدست آمده طبقهبند(HC) Haar Cascade اعمال شده تا نقاط کلیدی یا فریم های مربوط به تصاویر کل بدن استخراج شوند و باقی پسزمینهها از تصاویر حذف گردند. در انتها، نمونه های هر ویدئو در قالب ماتریس چهار بعدی شامل تعداد دنباله فریم های هر ویدئو، عرض، ارتفاع و تعداد کانال تصویر به شبکه (3DCNN)s ارسال می شود تا سلاح در تصاویر شناسایی شوند. لذا نوآوری مقاله ترکیب طبقهبند HCو (3DCNN)s بمنظور افزایش سرعت و کارایی تشخیص اسلحه میباشد. همچنین بمنظور بررسی دقت مدل پیشنهادی، از پارامترهای نرخ مثبت صحیح و مثبت کاذب، مقدار پیش بینی مثبت و نرخ تشخیص کاذب استفاده میشود.